iT邦幫忙

第 12 屆 iThome 鐵人賽

0
自我挑戰組

AI 高中生的自我學習系列 第 9

Day 9 - 目前(傳統)的機器學習三步驟(4)-訓練之測試

  • 分享至 

  • xImage
  •  

交叉驗證 Cross-Validation (wiki)

交叉驗證,有時亦稱循環估計,是一種統計學上將數據樣本切割成較小子集的實用方法。於是可以先在一個子集上做分析,而其它子集則用來做後續對此分析的確認及驗證。一開始的子集被稱為訓練集。而其它的子集則被稱為驗證集或測試集。交叉驗證的目的,是用未用來給模型作訓練的新數據,測試模型的性能,以便減少諸如過擬合和選擇偏差等問題,並給出模型如何在一個獨立的數據集上通用化

1.Cross-validation avoids overlapping test sets

  • First step: split data into k subsets of equal size
  • Second step: use each subset in turn for testing, the remainder for training

2.Called k-fold cross-validation
3.Often the subsets are stratifified before the cross- validation is performed
4.The error estimates are averaged to yield an overall error estimate

下例說明 3 子集驗證 (k=3)
https://ithelp.ithome.com.tw/upload/images/20201205/20130601bDjy0Z7KjL.png

小心Overfitting (過適)

1.(wiki)在統計學中,過適(英語:overfitting,或稱擬合過度)是指過於緊密或精確地匹配特定資料集,以致於無法良好地調適其他資料或預測未來的觀察結果的現象。
2.(wiki)在統計學習和機器學習中,為了避免或減輕過適現象,須要使用額外的技巧(如模型選擇、交叉驗證、提前停止、正則化、剪枝、貝葉斯資訊量準則、赤池資訊量準則或dropout)。
3.以下綠線及藍線是overfitting
https://ithelp.ithome.com.tw/upload/images/20201205/20130601EgtDhatekH.pnghttps://ithelp.ithome.com.tw/upload/images/20201205/20130601caHNV471qm.png

註:本文是搜尋數個網站及各種不同來源之結果,著重在學習,有些內容已難辦別出處,我會儘可能列入出處,若有疏忽或出處不可考,請聯絡我, 我會列入, 尚請見諒。

上一篇
Day 8 - 目前(傳統)的機器學習三步驟(3)-訓練
下一篇
Day 10 - 主動學習 Active Learning
系列文
AI 高中生的自我學習30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言